首页> 外文OA文献 >The MGB-2 Challenge: Arabic Multi-Dialect Broadcast Media Recognition
【2h】

The MGB-2 Challenge: Arabic Multi-Dialect Broadcast Media Recognition

机译:mGB-2挑战:阿拉伯语多方言广播媒体识别

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

This paper describes the Arabic Multi-Genre Broadcast (MGB-2) Challenge forSLT-2016. Unlike last year's English MGB Challenge, which focused onrecognition of diverse TV genres, this year, the challenge has an emphasis onhandling the diversity in dialect in Arabic speech. Audio data comes from 19distinct programmes from the Aljazeera Arabic TV channel between March 2005 andDecember 2015. Programmes are split into three groups: conversations,interviews, and reports. A total of 1,200 hours have been released with lightlysupervised transcriptions for the acoustic modelling. For language modelling,we made available over 110M words crawled from Aljazeera Arabic websiteAljazeera.net for a 10 year duration 2000-2011. Two lexicons have beenprovided, one phoneme based and one grapheme based. Finally, two tasks wereproposed for this year's challenge: standard speech transcription, and wordalignment. This paper describes the task data and evaluation process used inthe MGB challenge, and summarises the results obtained.
机译:本文介绍了SLT-2016的阿拉伯语多类型广播(MGB-2)挑战。与去年的英语MGB挑战赛(侧重于识别各种电视流派)不同,今年,挑战赛的重点是处理阿拉伯语中方言的多样性。音频数据来自2005年3月至2015年12月之间来自Aljazeera阿拉伯电视频道的19个与众不同的节目。这些节目分为三类:对话,访谈和报告。总共1200小时已发布,并带有轻微监督的转录,用于声学建模。在语言建模方面,我们提供了从Aljazeera阿拉伯语网站Aljazeera.net抓取的超过1.1亿个单词,使用期限为2000年至2011年。已经提供了两种词典,一种基于音素,一种基于音素。最后,针对今年的挑战提出了两项​​任务:标准语音转录和字对齐。本文描述了MGB挑战中使用的任务数据和评估过程,并总结了获得的结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号